[D10] GSDMM (Yin and Wang, 2014) 2/2

12th鐵人賽

victor.huang

2020-09-24 20:32:58

1039 瀏覽

分享至

Key Points

實驗資料集:
- Google News
  - Google news 有自己做分群。
    - 爬了 2013/ 11/ 27 這天的新聞
    - 11,109 篇，總共 152 群
    - 但 Google News 的分群真的是符合人類直覺的分群嗎？
      - 作者說人工檢查後發現品質很不錯。
    - 分成三個子資料集，用來測試不同的文章長度下的表下如何。
      - 只有標題 TitleSet (TSet)
      - 只有摘要 SnippetSet (SSet)
      - 標題摘要均有 TitleSnippetSet (TSSet)
- Tweets
  - 用 Text REtrieval Conference (TREC) 的資料
  - TREC 是由 query 與 High relevance result 構成的
  - 由此把每個 query 當作一個群的概念，對應的 high relevance result 則作為群。
  - 總共 2472 篇文章，分成 89 個群。
- 前處理
  - 轉小寫
  - 去掉非英文字和虛詞
  - 用 NLTK 做 stemming
  - 排除掉長度小於 2 或者大於 15 的字
評估指標
- 還有 Adjusted Rand Index (ARI) 和 Normalized Mutual Informa- tion (NMI)
實驗結果
- TweetSet
  - Kmeans： K 設定為真實的群數
  - GSDMM：回合數 30、 α = 0.1、 β = 0.1
  - GSDMM 全方位的優於舊有方法。
    - GSDMM 優於 kMeans 因為可以自由的選擇群數
    - GSDMM 優於 DMAFP 因為他不是用 EM 算法，不會落入區域最佳解。
- Google News
  - 全方位的優於現有方法。
  - GSDMM 在長文本表現更佳
  - 但在短文本也勝過 KMeans 用長文本。
    - 足見其短文分群的實力。
模型分析
- 回合數的影響
  - 對於群數：收斂極快，十個回合左右就穩定。
  - 對於效能：以ＮＭＩ為例，兩個回合就穩定。
- 初始群數 K 的影響
  - 每個實驗就跑十回合。
  - GSDMM 有能力找到接近真實分群的群數。
    - TitleSet 找不到可能是內含的文字太少了。
  - GSDMM 在群數過大的時候，仍能正確的分群，維持了良好的 completeness 和 homogeneity。
    - 故可以放心的設定較大的 K 。
    - 這要歸功於兩個原則的平衡。
- alpha 的影響
  - 固定 beta = 0.1 ，初始 K = 300 ，跑十個回合。
  - 概念：當 alpha 為零的時候，每篇文章絕對不會去選擇空的群。
  - 可以看到在 tweetset 和 titleset 上面的表現，在 alpha 變大的時候，越來越多群出現，這是因為隨著 alpha 上升，選擇空群的機率上升。
  - 但 snippestset 和 titlesnippetset 就沒有這個情形，基本上很穩定，因為他們的文章長度較長，在這種情況下，根據公式，另外一條規則會主導。
  - Alpha 對效能的影響甚微。
    - 照理說移除 alpha 有助於提升速度。
    - 但是在公式中，alpha 為零不能成立，畢竟 alpha 是 Dirichlet distribution 的參數。
    - 應該有另一個公式，留作未來探索。
- beta 的影響
  - 概念：當 beta 比較小的時候，文章較有可能被分到較相似的群。
  - 所以我們可以看到當 beta 越小，分出來的群就越多。
  - 我們可以看到上面，兩個指標隨著 beta 的變化。
    - 當文章越去找與自己相近的群的的時候，homogeneity就會比較高，但因為群太多導致 completeness 下降。
- 可擴展性
  - 作者把資料集複製好幾次，看看不同的資料集各演算法所需的時間差異為何。
  - 可以看到在資料集複製成 256 倍的大小時，約284萬篇文章的時候，GSDMM 的算法大概只要花半個小時，其他的算法都已經遠遠超過了。
  - 由此可證明此方法是可擴展的。